인공지능기초_05_딥러닝과 머신러닝 비교
1. 개요
모든 문제에 딥러닝을 쓰는 게 정답은 아니다. 문제의 복잡도와 데이터 특성에 따라, 전통적인 머신러닝이 더 효율적인 경우도 많다.
2. 특징 추출(Feature Engineering)의 차이
두 접근의 가장 큰 차이는 특징을 누가 직접 정의하느냐에 있다.
2.1. 머신러닝의 접근 방식
머신러닝에서는 연구자나 개발자가 데이터의 핵심 특징을 직접 뽑아내야 한다. 이 과정이 피처 엔지니어링이다.
스팸 문자 분류를 예로 들면, 아래 같은 기준을 사람이 먼저 정해야 한다.
- "국제발신", "웹발신" 같은 키워드가 있는지
- "수익 보장", "급등주" 같은 특정 단어가 얼마나 자주 나오는지
- 본문 길이, 특수문자 개수처럼 규칙으로 표현 가능한 값
문제는 사람이 미리 정의하지 않은 패턴을 잡기 어렵다는 점이다. "손실 만회"처럼 새로 등장한 표현은 놓치기 쉽다. 그래서 이 방식은 도메인 지식에 많이 의존한다.
2.2. 딥러닝의 접근 방식
딥러닝은 원본 데이터와 정답만 주면, 모델이 내부에서 특징을 스스로 추출하며 학습한다. 별도의 피처 엔지니어링 부담이 훨씬 적다.
이 방식은 사람이 바로 떠올리기 어려운 미세한 패턴이나 비선형 관계까지 잡아낼 수 있어서 확장성과 정확도가 높다.
대신 머신러닝보다 훨씬 많은 데이터와 연산 자원이 필요하다. GPU 같은 하드웨어 비용도 같이 커진다.
3. 기술 선택 전략: 언제 딥러닝을 써야 하는가?
결국 중요한 건 성능만이 아니라, 문제 구조와 운영 비용에 맞는 선택이다.
3.1. 머신러닝이 적합한 경우
데이터가 정형화돼 있고 규칙이 분명하면 머신러닝이 더 비용 효율적이다.
자동차 번호판 인식을 예로 들면 조건이 비교적 단순하다.
- 번호판 규격은 국가 표준으로 정해져 있고 변경 주기도 길다.
- 카메라 각도와 번호판 위치도 대체로 일정하다.
- 이런 문제는 OCR이나 가벼운 머신러닝 모델만으로도 높은 정확도를 낼 수 있다.
규격이 바뀌어도 재학습 범위가 제한적이라 대응이 빠르다.
3.2. 딥러닝이 적합한 경우
데이터가 비정형이고 패턴이 복잡하며 계속 변하면 딥러닝이 더 유리하다.
챗봇과 자연어 처리가 대표적이다.
- 인간 언어는 문맥, 줄임말, 신조어, 오타처럼 변수가 너무 많다.
- 사람이 규칙을 전부 정의하는 방식으로는 한계가 금방 온다.
- 딥러닝은 대규모 텍스트 데이터에서 이런 패턴을 직접 학습하므로 복잡한 언어 처리에 잘 맞는다.
4. 결론
딥러닝은 강력하지만 만능 도구는 아니다. 데이터 수집과 가공 비용, 필요한 하드웨어 자원, 문제 난이도를 같이 보고 모델을 골라야 한다. 결국 중요한 건 최신 기술이 아니라, 지금 문제에 맞는 선택이다.